资源

PaperWithCode：SynthText3D: Synthesizing Scene Text Images from 3D Virtual Worlds | Papers With Code
GitHub：MhLiao/SynthText3D: Project page of SynthText3D (github.com)
Arxiv：[1907.06007] SynthText3D: Synthesizing Scene Text Images from 3D Virtual Worlds (arxiv.org)

全文

Abstract

一种用 3D 图形学引擎合成场景文本的方法。

1. Introduction

数据注释慢慢，合成数据快快，还没有人为错误。
概述了下先前的场景文本图像合成方法。
认为通过将文本插入静态 2D 背景图像总是差点意思。
提出了一种结合 3D 信息的图像合成引擎 SynthText3D
- 各种字体的文本实例首先被嵌入到 3D 虚拟世界中的适当位置。
- 在 3D 虚拟世界中渲染包含具有各种照明条件和不同可见性的文本实例的虚拟场景，其中文本和场景被完整地渲染。
- 最后，我们将相机设置为不同的位置和方向，以使投影的 2D 文本图像处于不同的视点。
笔者认为 SynthText3D 具有的优势：
- 3D 虚拟世界中的文本和场景被渲染为一个整体，这使得照明/可见性、透视变换和遮挡模拟更加逼真。
- 直接从引擎中获得准确的曲面法线信息，这有利于找到合适的区域来放置文本实例。
- SynthText3D 可以生成具有不同视角、不同照明和不同可视度的文本实例，这类似于人眼的观察方式。
全文贡献：
- 从 3D 引擎合成场景文本数据集，前无古人
- 视觉效果牛逼！有复杂的透视变换、各种照明和遮挡。
- 实验证明好使。

2.1. Synthetic Data for Scene Text

介绍一下前人工作：

Synth90K 只有裁剪的局部区域，不能直接用于 Text Detection
大名鼎鼎的 SynthText……

这些方法都不是从 3D 虚拟世界里渲染的。

2.2. Image Synthesis in 3D Virtual Worlds

领域有：

人体姿态估计
室内场景理解
物体检测

3D 模型的使用：

在静态背景真实图像上渲染 3D 对象。
随机排列充满物体的场景。
使用商业游戏引擎：
- 给他爱
- Unreal

2.3. Scene Text Detection

介绍一下 STD。

自上而下的方法。
在通用对象检测的框架上将场景文本视为通用对象。

3. Methodology

3.1. Overview

基于 UE4 和 UnrealCV 插件。

9 个 3D 场景模型：

5 个室内模型
4 个室外模型

The pipeline of SynthText3D.

摄像头锚点生成模块
文本区域生成模块
文字生成模块
3D 渲染模块

步骤：

为每个 3D 模型手动初始化少量相机锚点。
从 3D 引擎获得每个相机锚点的 RGB 图像和精确的表面法线图
将基于曲面法线贴图生成可用的文本区域
从所有可用的文本区域中随机选择几个区域，并根据文本区域的大小生成随机字体、文本内容和写作结构的文本（所选择的文本区域的文本颜色是根据相应区域的背景 RGB 图像生成的）
将 2D 文本区域映射到 3D 虚拟世界中，并将相应的文本放置在其中

3.2. Camera Anchor Generation

手动检查，或者使用带注释的数据集来丢弃包含文本的背景图像。
在虚拟场景中构建了一小组相机视点（每个 3D 模型大约 20 到 30 个），这些视点被视为初始锚点。在收集过程中，操作员控制摄影机在场景中导航，选择适合放置文本的视图。
按照一个简单的规则选择相机锚点：视图中至少存在一个合适的区域。人工引导的摄像机锚点生成可以消除不合理的锚点，例如物体内部或昏暗光线下的锚点。

3.3. Text Region Generation

给定相机锚点，我们可以获得 3D 场景的可见部分，其中包含视图的RGB 图像、深度图像和曲面法线图。

这里，文本区域的生成是基于曲面法线贴图的。三维虚拟世界中坐标点的表面法线被定义为垂直于当前坐标点处该表面的切平面的单位向量。

3.3.1 Normal Boundary Map

前人的工作有用 gpb-UCM 分割来获得合适的文本区域，也有用模型估计的显著性图和基本语义事实图来提取合适的文本嵌入位置。

但是我们用 3D 引擎，可以直接获得精确的深度图和法线图。

使用简单的变换方程从曲面法线贴图生成法线边界图：

资源

全文